针对不同语种的被动和可能语态的句法结构差异影响机器翻译质量的问题, 提出融合语态特征的最大熵翻译模型。首先从日语端分出被动语态、可能语态和其他语态, 然后从英语端对被动和可能语态进一步分类, 抽取双语特征训练最大熵规则分类模型, 将语态特征融合到对数线性模型中以改善翻译模型。提高解码器在翻译被动语态和可能语态时规则选择的准确性。实验结果表明, 该方法可以有效地改善日英统计机器翻译的句法结构调序和词汇翻译, 提升被动语态和可能语态句子的翻译质量。
针对传统的基于实例的机器翻译(EBMT)方法中系统构筑复杂度和成本较高的问题, 提出一种基于依存树到串的汉英实例机器翻译方法。与传统方法相比, 该方法只需进行源语言端的句法结构分析, 可以大大降低构筑系统的复杂度, 有效降低成本。为了提高翻译精度, 引入中文分词、词性标注和依存句法分析联合模型, 可以减少汉英 EBMT 中源语言端基础任务中的错误传递, 提高提取层次间特征的准确性。在此基础上, 结合依存结构的特征和中英语料的特性, 对依存树到串模型进行规则抽取以及泛化处理。实验结果表明, 相对于基线系统, 该方法可以提高实例对抽取质量, 改善泛化规则和译文质量, 提高系统性能。